Представьте труд создания мозга по сравнению с простой передачей ему сценария. В предыдущую эру обработки естественного языка, адаптация домена была изнурительным процессом переносного обучения или PEFT (эффективное дообучение по параметрам). Мы рассматривали модели как глину, требующую тысяч размеченных примеров для физического изменения внутренних весов — процесс, который был вычислительно затратным и порождал статичные, чрезмерно специализированные версии моделей, таких как BERT.
Катализатор GPT-3
Выпуск GPT-3 стал прогрессивным (СОТА) вехой. Было доказано, что обучение в контексте—где модель распознаёт паттерны непосредственно из подсказки—часто соответствует или превосходит результаты специализированного дообучения для общих задач. Мы перешли к инференсу на основе подсказок, где задержка и стоимость обновления градиентов заменяются стратегическим внедрением контекста.